Корпусная лингвистика

План тем и заданий для студентов КазНУ (Алматы, ноябрь 2014 г.)

1. Лингвистические корпуса и лексические ресурсы на их основе.
  • Задание к Уроку 1: собрать 10 текстов электронной коммуникации на казахском языке (пост + комментарии к нему). Указать метаинформацию (все, что доступно):
    • время создания
    • источник
    • социолингвистическая информация об авторе (поста и комментариев отдельно)
      • пол, возраст, образование (высшее, среднее, ниже среднего), место жительства, место рождения
Тексты с разметкой сохранить как текст (*.txt) и прислать на адрес olesar@yandex.ru / принести на флешке. Они нужны в электронном виде.

2. Представление лингвистической аннотации в корпусе. Практикум в НКРЯ.
  • Задание к Уроку 2. Дополнительный практикум на сайте http://studiorum.ruscorpora.ru, раздел "Помощь начинающему пользователю" (п. 5-7).

3. Грамматическая (словоизменительная) информация в корпусе. Разрешение лексико-грамматической омонимии.
  • Задание к Уроку 3. Пройти практикум на странице http://opencorpora.org (зарегистрироваться на сайте и взять на разметку 4 порции заданий разного рода (всего 20 примеров), см. раздел "Разметка" (http://opencorpora.org/tasks.php).

4. Частотные словари на материале корпуса.
  • Задание к Уроку 4. Тем, кто еще не собрал тексты электронной коммуникации: найти их с помощью поиска по блогам http://blogs.yandex.ru. Для поиска использовать слова из 200-словного списка Сводеша. Выберите слово, которое благодаря своей графике будет распознано Яндексом как казахское (см. скриншот).
Screenshot_kz1.jpg
Убедитесь, что пост написан по-казахски, скачайте пост и комментарии. Если в vk индексирование записи запрещено, пройдите на сайт пользователя и скачайте любой пост (посты).

5. Алматинский корпус казахского языка (http://web-corpora.net/KazakhCorpus/search/). Пополнение грамматического словаря. Работа с частотными данными.
Полезные ресурсы:
  • Казахско-русский и русско-казахский онлайн-словарь http://sozdik.kz/
  • Справочник по грамматическим аффиксам казахского языка (Excel-файл).
  • Конкордансер AntConc http://www.laurenceanthony.net/antconc_index.html
  • Частотный список словоформ (Топ-100) - будем создавать на уроке
  • Частотный список биграмов (двусловных сочетаний), 3-, 4- и 5-грамов (Excel-файл).
  • Пополнение грамматического словаря (гугл-док для редактирования)
  • Разборы классов грамматических форм. Файл для домашнего задания. (Каждый студент разбирает 30 форм с частотой 10 и более употреблений в корпусе и посылает мне разборы на почту olesar@yandex.ru).
Пополнение словаря. Техническое задание: посмотреть контексты употребления слова в корпусе. Посмотреть информацию о слове в словаре
http://sozdik.kz/. Определить все частеречные разборы, леммы, все (!) возможные грамматические характеристики. Разобрать слово в словаре. Для каждого нового разбора вставлять отдельную строчку (данные редактируются онлайн).
Пометы частей речи и грамматических показателей брать со страницы Алматинского корпуса (задать грамматику и части речи).